Projet Boîtes à Outils

Les objectifs de ce projet

Le but du Projet du 2e semestre est de traiter le corpus des fils RSS du journal Le Monde automatiquement.

Pour cela, à partir d'un script perl fourni obligeamment par nos GP (Gentils Professeurs) qui permet de parcourir l'arborescence d'un corpus réduit (le mois de janvier 2008), il faut récupérer le titre et la description des fils (aux formats txt et xml, en utf8).

Plusieurs problèmes à résoudre :

éviter de récupérer le titre général du fil. C'est facile : il suffit de préciser que la balise <item> doit figurer juste avant la balise <title>. Pour cela, il vaut mieux supprimer tout ce qui peut se trouver entre les chevrons < et > grâce à une regex.
supprimer toutes les entités HTML qui polluent la lecture. Sur le site d'un étudiant de l'an dernier, figure une liste très complète qu'il suffit de recopier dans une procédure.
envisager qu'il n'y ait pas de retour à la ligne, ce qui retirerait toute efficacité à la recherche par ligne. La solution radicale est de supprimer tous les retours à la ligne avant de traiter le texte, puis d'utiliser l'option g à la fin de la REGEX pour traiter toutes les occurrences.
Il faut enfin transformer le texte de iso-8859-1 en utf8 (ou en tout cas vérifier l'encodage car le corpus 2012 est en UTF-8).

Voilà le script et ses 344 lignes (en .txt pour pouvoir l'afficher dans le navigateur et non en .pl).

Le premier script

Et la Version n°2.

Le second script

Pour récupérer automatiquement la liste des rubriques (il y en a 15 en tout), nous avons écrit :

while (($code, $nom) = each(%rubrique)) { my $output1RUBRIQUE="../PERLV1/SORTIE_XML/SORTIE_".$nom.".xml"; if (!open (OUTXML,">>:encoding(UTF-8)","$output1RUBRIQUE")) { die "Pb a l'ouverture du fichier $output1RUBRIQUE"}; print OUTXML "<\/rubrique>\n"; close OUTXML; } exit;

Pour ne pas avoir des fichiers partout, il vaut mieux préparer un beau bureau avec des dossiers PERLV2/SORTIE_XML et PERLV2/SORTIE_TXT ; même chose pour PERLV1.

Les modules perl

Certains modules perl déjà conçus permettent de se simplifier la vie, une fois qu'on a réussi à les installer. Par exemple :

UNICODE::String

Le fichier xml est en iso latin et le fichier texte en utf-8.

Le problème de codage est assez facile à traiter à l'aide du module perl (installé grâce à l'utilitaire ppm Merci S. Fleury !) UNICODE::String, on peut transformer le iso-8859-1 en gentil UTF8 sans plus de difficultés et voilà donc le script revisité : paf2.pl.

Autre script

XML::RSS

Autre module XML::RSS et le code se réduit par miracle. Il n'y a plus que quelques lignes qui trouvent le contenu du fil RSS dans les balises demandées, plus besoin d'expressions régulières, de suppressions de retour à la ligne. Simple, efficace et rapide à mettre en œuvre.

Autre script

Voici le deuxième script pafrss.pl.

Tableau du texte obtenu

En fin de traitement, on obtient pour chaque rubrique un tableau qui reprend le titre de chaque fil RSS suivi de son résumé comme dans l'exemple sur la rubrique ALAUNE qui se trouve sous ce fichier xml qui appelle la feuille de style xsl qui se cache ici.

Les diverses étapes

Outils

Outils
Liens

Boîtes à Outils

Master1 Inalco - Paris 3